[2023年8月30日号]個人的に気になったModern Data Stack情報まとめ
さがらです。
Modern Data Stack関連のコンサルタントをしている私ですが、Modern Data Stack界隈は日々多くの情報が発信されております。
そんな多くの情報が発信されている中、この2週間ほどの間で私が気になったModern Data Stack関連の情報を本記事でまとめてみます。
※注意事項:記述している製品のすべての最新情報を網羅しているわけではありません。私の独断と偏見で気になった情報のみ記載しております。
Modern Data Stack全般
Google Cloud Next'23が開催
現地時間の2023年8月29日~2023年8月31日に、Google Cloudのカンファレンスイベントである「Next'23」が開催されます。併せて多くの新機能がパブリックプレビューになりましたね。(一部の新機能については後述します。)
オンライン向けのDigital Passならば、無料で見ることが出来ます!
また、データプロフェッショナル向けの必聴セッションについてまとめられた記事も日本語で出ています。こちらも併せてご覧ください。
弊社のDevelopersIOでもブログが今後あがっていくので、ぜひご覧ください!
Forbes:NEXT BILLION-DOLLAR STARTUPS 2023
Forbesより「NEXT BILLION-DOLLAR STARTUPS 2023」という次に評価額が10億ドルに達する可能性が高いと思われる25社のリストが出ていました。
Modern Data Stack関係でいうと、HexとHightouchが入っていますね!
「MDS FEST 2023」が開催
Secoda社、Count社、Delphi社の主催で、MDS FEST 2023が現地時間2023年8月21日~25日の間に開催されました。
各社のAnalytics Engineerだけでなく、MotherDuck社・Cube社・Dagster社などModern Data Stackの中でも新進気鋭の企業のエンジニアが多く登壇しております。
主催のSecoda社のブログにおいて、Day 1のRecapとRecordingsについての記事が公開されています。
Data Extract/Load
Fivetran
FivetranによってロードされたSAPデータ向けのdbt packageが公開
FivetranによってロードされたSAPデータ向けのdbt packageが公開されました。
FivetranのLocal Data ProcessingのSAPコネクタにも対応しているようなので、SAPのデータをすぐ分析に使える形にしたいときには役立ちそうです。
Fivetranのコストに関する解説記事
Fivetranのコストについて解説された記事が出ていました。
特に、「新しいコネクタ設定後14日間の間」や「ユーザー側で行った再同期(Re-sync)」などはMARが発生しないという、ドキュメントを読み込まないとわからない情報も含まれているので、Fivetranを利用されている方にはぜひ一度読んでいただきたい記事となっております。
FivetranのLocal Data Processingの解説記事
phData社より、FivetranでオンプレミスのデータをロードできるLocal Data Processing(LDP)についての解説記事が出ていました。
Hubやエージェントをインストールする必要はありますが、LDPにはソースデータとロード先のデータを比較(Compare)し、レコードのズレがあればRepairする機能がデフォルトで備わっていたりと、機能的にはなかなか魅力的な機能が備わっています!
Data Warehouse/Data Lakehouse
Snowflake
2023年5月~2023年7月にリリースされた新機能・Marketplaceのまとめ
Snowflake社の公式ブログで、2023年5月~2023年7月にリリースされた新機能・Marketplaceのまとめ記事が出ていました。
改めて、2023年6月にはSnowflake Summitもあったため多くの新機能がリリースされていましたね!
Marketplaceのデータも多くリリースされていますが、個人的にはCalifornia State Water Resources Control Boardというカリフォルニア州の水資源管理機関がデータを公開しているのが印象深かったです。
External Network Locationを用いたSnowflakeからBigQueryのFederated Queryの事例
現在SnowflakeでプライベートプレビューであるExternal Network Locationを用いて、SnowflakeからBigQueryのFederated Queryを行う事例記事が出ていました。
SnowflakeからBigQueryでFederated Queryを実行し、その出力をSnowflakeのウェアハウスを使用してSnowflake内の他のデータとJOINすることも出来るようです。(ただ、ネットワークコストや、BigQueryとSnowflakeどちらのリソースも使うという点は注意が必要そうです。)
BigQuery
Data Clean Roomがプレビュー
BigQueryの1機能として、Data Clean Roomがプレビューとなりました。
Analytics Hub上に構築されている機能らしく、従来のAnalytics Hubによるデータ共有よりも機密性の高いデータを共有するユースケースでは役立ちそうですね。
Duet AIがプレビュー
BigQueryに限った機能ではないですが、AIが開発や操作を支援してくれる新機能としてDuet AIがプレビューとなりました。
このDuet AIがBigQueryにも対応しており、クエリエディター上でコメント入力してクエリ生成のリクエストが出来るだけでなく、書かれてあるクエリの説明、クエリに対する修正提案、などもしてくれるようです。
BigQuery Studioがプレビュー
BigQuery Studioがプレビューとなりました。
私も公開された文面を読んだだけですが、Colab EnterpriseのNotebookを立ち上げる、Dataform上で構築したコードの管理、Dataplexによるデータ検出、などといった従来のBigQueryと特に親和性の高かった機能が1つにまとまったプラットフォームとなりそうです。
BigQuery DataFramesがプレビュー
BigQuery DataFramesがプレビューとなりました。
Python APIを介して、一部にpandasと互換性のあるDataFrameの定義・操作と、一部にscikit-learnと互換性のある機械学習のモデル構築、といったことがBigQueryのリソースを用いて出来るようです。
サンプルのNotebookもあるため、Pythonがわかる方はこちらを見るのが早いと思います!
Cross-region dataset replicationがプレビュー
BigQueryの新機能として、Cross-region dataset replicationがプレビューとなりました。
Yuta.Hさんの投稿のコメントにもありましたが、BigQueryではリージョンをまたいだJOINが出来ないので、別リージョンにあるデータセットのテーブルとJOINさせたいときなどに役立ちそうですね。
Codey APIを用いて学習させたテーブルに対するクエリを自然言語で生成するプログラムの例
Codey APIを用いて、BigQueryのサンプルデータを学習させ、その学習させたサンプルデータに対するクエリを自然言語で生成するプログラムの例が、記事として投稿されていました。
正確性など課題はありそうですが、取り組みが面白かったので本まとめで共有してみました。
MotherDuck/DuckDB
MotherDuckの用途まとめ
2023年6月に発表されたMotherDuckについて、DuckDB含めて用途をまとめた記事が公式ブログから出ていました。
オーケストレーションツールであるKestraのBlueprintを軸に、データをまとめたレポートのメール送信、マスキングなどのデータ変換処理を含むデータパイプライン、ファイルアップロードを検知してのイベント駆動型の処理、といった内容が書かれています。
開発環境にDuckDB、本番環境にMotherDuckを用いたパイプライン開発の事例
dlt(data load tool)を開発しているdlt.Hubのブログにおいて、開発環境ではローカルのDuckDB、本番環境ではクラウドのMotherDuckを用いたdltパイプライン開発の事例が出ていました。
クラウドDWHと違って、完全にローカルとクラウドで互換性のある開発環境をローカル上に構築できるのはDuckDBの強みだと思いますので、この事例はDuckDBとMotherDuckの活用方法として興味深いですね!
Data Transform
dbt
「データ基盤管理の考え方~dbtの極意~」が開催
2023/8/22に、Findy社主催で「データ基盤管理の考え方~dbtの極意~」が開催されました。
各社のdbtを用いた取り組みが知れる5つのLTがあり、登壇資料も下記のURLに掲載されています!
各種dbt packageを用いたdbt testの方法のまとめ記事
Elementaryより、dbt-coreに付随するdbt testだけでなく、dbt-utils、dbt-expectations、elementaryなどのdbt packageに付随するdbt testも含め、どのようなデータテストがdbt上で行うことが出来るかまとめた記事が出ていました。
具体的には、スキーマ変更(型変更や列の追加削除など)の検出、データの鮮度の確認、データのボリュームに関する確認、異常値の確認、独自のカスタムテストの定義、といった観点で述べられており参考になる方も多いと思います。
Semantic Layer
Cube
CubeとLangChainの統合事例
Cubeで定義したSemantic Layerの内容をVector Storeに入れ、Streamlit使ったアプリから自然言語で問い合わせをすることでCubeで定義したSemantic Layerに沿ってSQLを生成することができるアプリケーションをLangChainを用いて実装した事例がCube社のブログより出ていました。
私もDB/DWH上のデータに対するLLMがより確実な答えを返すにはSemantic Layerと組み合わせて使うのが良いだろうとは感じていたのですがまだ実装例がなかった状況でした。しかし、ここにきてCube社が初めて事例を出してきましたね!
Business Intelligence
Tableau
Tableau 2023.3が間もなくリリース
Tableau 2023.3に関する情報が公開されていて、間もなくリリースとなりそうです。
個人的にはOn-demand accessについて、Tableauをアプリケーションに埋め込んで使用するときのユーザー管理が楽になるのではと期待しています。
Notebooks
Hex
Google Cloudの新機能にHexが対応
上述のBigQuery DataFramesに早速Hexが対応し、Hex上でBigQuery DataFramesを用いた分析ができるようになりました。
Data Orchestration
Airflow
Airflow 2.7に関する紹介記事
Astronomer社より、2023年8月にリリースされたAirflow 2.7に関する紹介記事が出ていました。
Data Security
Immuta
ImmutaとSnowflakeを組み合わせた際の記事
私が最近検証していただけなのですが、ImmutaとSnowflakeを組み合わせたときにどのようにデータアクセス権を管理でき、どのように機密データ検知を自動で行ってくれるのか、を試した記事を投稿しました。
Immutaは1度アクセスやマスキングに関するポリシーを定義しておけば、各ユーザーの所属するGroupなどの属性情報を変更するだけで自動でデータへのアクセス権を変更したり必要なマスキング処理を行われるようになります!